Model Selection

End-to-End Learning

# End-to-End Learning

Wavlm Bert Fusion S Emotion Russian Resd

A multimodal fusion model based on WavLM and BERT, suitable for joint speech and text task processing.

Speech Recognition

Control V11p Sd15 Inpaint

ControlNet v1.1 is a conditional control model for image inpainting tasks based on Stable Diffusion.

Image Generation Other

Ast Finetuned Audioset 16 16 0.442

An audio spectrogram transformer fine-tuned on the AudioSet dataset, utilizing a vision transformer architecture to process audio spectrograms, achieving excellent performance in audio classification tasks.

Audio Classification

Ast Finetuned Audioset 10 10 0.448 V2

An audio spectrogram transformer fine-tuned on the AudioSet dataset, which converts audio into spectrograms and processes them using a vision transformer, excelling in audio classification tasks.

Audio Classification

Ast Finetuned Audioset 10 10 0.450

An audio spectrogram transformer fine-tuned on the AudioSet dataset, utilizing ViT architecture for processing audio spectrograms, achieving excellent performance in audio classification tasks.

Audio Classification

Wav2vec Speech Project

A speech processing model based on the wav2vec architecture, with unspecified specific uses and training data

Speech Recognition

Wav2vec2 Xls R 300m Demo Colab

This model is a fine-tuned speech recognition model based on facebook/wav2vec2-xls-r-300m on the common_voice dataset

Speech Recognition

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase